查看原文
其他

人人都有掌上贾维斯(懂方言!),语音版 ChatGPT 首发登顶 App Store|深度体验

黄智健 APPSO 2023-06-24
先进实践 
没有一点点防备,ChatGPT 就迎来了真·iPhone 时刻。
在今天凌晨,OpenAI 在美区 App Store 悄无声息地上线了 ChatGPT app,半天不到就冲上美区免费应用榜的 No.1。
我们第一时间下载体验了一番后不禁感叹:官方版,就是香!
此前很多人尝试用 iOS 快捷指令和 ChatGPT API 的方式 DIY 移动端的 ChatGPT,但用起来还是不那么方便。
ChatGPT app 解决了这个痛点。(注意:ChatGPT app 仅支持 iOS 16.1 以上的系统版本)
OpenAI 还透露了,很快 ChatGPT 也会上线 Android 平台,敬请期待。
现在,你可以随时随地用一个非常便捷、安全以及优雅的方式与全世界最聪明的「大脑」聊天。
划重点
1. ChatGPT app 新增语音输入功能(支持粤语、闽南语等方言)
2. ChatGPT app 通过历史问答实现联网浏览和插件集
3. ChatGPT app 可以通过 App Store 订阅 ChatGPT Plus
4. 可以通过小组件的方式快速启动 ChatGPT app
5. 完美支持中文,速度极快
第一次打开 ChatGPT app,你就能立刻感觉到它的与众不同:
登陆界面循环播放打字的动画,与此同时 iPhone 会随之发出震动,就像是 ChatGPT 在手机里活过来了一样,一下一下地敲键盘与你对话。         
这种清晰的震动反馈贯穿于 ChatGPT app 的所有交互里面,包括点开或收起对话栏、ChatGPT 吐字、横划切换新的对话,OpenAI 都做了 Haptic 震动反馈,你可以理解它是一款「手感很好」的 app。
登陆账号后,ChatGPT app 的 UI 跟网页版一样简洁,只有 GPT-3.5 和 GPT-4 模型(仅 Plus 用户能用)的切换面板和一个聊天框。
不同的是,ChatGPT app 在聊天框上新增了一个很有意思的功能——语音输入。
ChatGPT app 的语音输入和我们熟悉的语音输入法不太一样,你不需要在输入之前选择你说的语言,点开直接说就好。
经过我们测试,ChatGPT app 不仅能「听懂」英语、普通话、日语等主流语言,还能支持粤语、闽南语等方言。
这是因为 ChatGPT app 使用的是 OpenAI 自家的 Whisper 模型,共支持 96 种语言,在听力识别精度上几乎能达到人类的水平。欢迎大家在评论区分享 ChatGPT 还能听懂哪些方言。
彩蛋时间:我们还用《星际迷航》的克林贡语测试了一下,可惜 Whisper 并不能听懂。
这里还有一个小细节:ChatGPT app 的语音输入并不仅仅是简单的语音转文字,它还会把语音内容转化为语言模型更容易理解和搜索的书面语提示词。
举个例子,我用粤语口语提问他:
「你知唔知 Apple 嘅总部喺边度?」,它的转写结果就会变成书面语:「你知不知道 Apple 的总部在哪里?」,整个输入过程非常迅速。这里我还用了中夹英刁难它,它照样识别正常。
可以说,语音输入的加入几乎让 Siri 失去了价值。
试想一下,当你在和朋友聊天时突然讲到一个陌生的话题,或者想做一道从来没做的菜,拿出手机随口一说就能得到一份详尽的解答,而不是「我在互联网上为找到了以下这些毫不相关的内容」,多么畅快。
美中不足的是,ChatGPT app 不能用语音把这些回答「念」出来,取代掉智能音箱,成为一个真正的聊天机器人。
经过进一步的测试后我们还发现,当输入超过两分钟以上的语音内容时,Whisper 就容易报错、丢失内容或者停止响应,并且手机发烫很明显,不知道 OpenAI 会不会针对这些问题作改善。
所以,我不太建议大家在重要的场合直接使用 ChatGPT app 进行转写(例如做会议纪要),还是把它当作一个随问随答的方式比较好。
在回答速度方面,ChatGPT app 基本和网页端保持一致,即 GPT 3.5 快如闪电,GPT-4 则「惜字如金」,要一个字一个字地往外吐。
我们在体验的时候还发现了一个细节:当 ChatGPT 在回答时,你切出 app 并不会打断它的回答。
所以如果你问了一个特别长的问题,不需要一直守着它等待回答完毕,可以自由地来回切换 app。
这里的玩法就很多了,例如当你遇到情感问题处理不来时,就可以来回复制对象的对话,让 ChatGPT 帮你处理(错误示范,如有问题概不负责)。
我们发现,基本上网页端 ChatGPT 能回答的问题或者可以实现的操作,例如让它制作表格、写代码等,在 ChatGPT app 上都能实现。
至于前两天上线的插件集和网页浏览功能,在 ChatGPT app 并没有直接使用的入口。
不过,这里有个小技巧让你调用。
你只需要在网页端在一个回答内选用插件集或者网页浏览功能后,再在 ChatGPT app 上选择这个历史记录,接下去问,ChatGPT 也能在 app 上调用相应的功能回答你。
这时候你就可以真的把它当作一个「天才版 Siri」使用,实时搜索最新的消息——前提是你要忍受它缓慢的生成速度,以及不高的成功率。
ChatGPT app 最重要的「更新」,应该就是可以用 App Store 订阅 ChatGPT Plus。
订阅后,你就可以使用「极速版 GPT-3.5」、GPT-4、插件集、网络浏览这几大功能。
你可以通过充值 App Store 礼品卡等方式支付每个月 19.99 美元的订阅费,再也不用为「怎样用信用卡支付」的问题而发愁了!
这里还有一个为你的 iPhone「赋能」的小技巧:
你可以在锁屏界面添加一个 ChatGPT 的小组件,然后当你想提问的时候,点击小组件就能直接到 ChatGPT app 的聊天框。
解锁、启动 app、提问,整个过程无缝衔接,如丝般流畅。(PS:不知道为什么,在锁屏中看到 OpenAI 的 Logo 感觉 iPhone 都变得智能了不少)
ChatGPT app 还有一件事让我印象深刻,那就是它的首次开屏时的动画。
这是一段非常简洁,往复循环的 Slogan,或者说,是一首「短诗」:
Let‘s design 让我们一起设计
Let‘s chit-chat 让我们一起闲聊
Let‘s discover 让我们一起发现
ChatGPT
Let‘s create 让我们一起创造
Let‘s brainstorm 让我们一起头脑风暴
Let‘s go 让我们一起启程
ChatGPT
Let‘s explore 让我们一起探索
Let‘s collaborate 让我们一起合作
Let‘s invent 让我们一起发明
ChatGPT
我问了 ChatGPT 关于这首诗的内涵,它说:
这首诗的内涵主要表达了 ChatGPT 的多种功能和用途。它鼓励我们去设计、交谈、发现,展示了 ChatGPT 作为一个强大的语言模型和对话工具的能力。诗歌进一步鼓励我们创造、头脑风暴、启程,这反映了 ChatGPT 的协助创新和激发创造力的功能;诗歌强调了探索、合作和发明的概念,提醒我们 ChatGPT 是一个可以协助我们学习新知识,合作解决问题,甚至发明新事物的工具。
半年前,我们第一次接触 ChatGPT 时,曾苦恼过怎么向读者们介绍它:ChatGPT 是一个聊天机器人,是 AI 技术的集大成者,是一个不知疲倦的作者,是一个会说错话的知识百科……
现在,我们终于可以大胆且坚定地给它下一个简洁明了的定义:
ChatGPT 就是下一代人的先进工具。



参考:

🔗 ChatGPT (openai.com)

什么是 Whisper 模型?


Whisper 是OpenAI 的自动语音识别系统,可以识别和转录多种语言和方言,包括粤语。尽管 Whisper 在处理英语时表现最佳,但对于其他语言,如中文和其它方言,它的表现也相当不错。

在针对粤语的测试中,Whisper 的中等和大型模型在转录粤语时表现出了较低的词错误率和较高的 BLEU 分数。

词错误率(Word Error Rate,简称WER)衡量识别系统错误识别的单词比例,数值越低表示识别得越准确。

BLEU 分数是评估机器翻译质量的指标,它比较系统翻译结果与参考翻译之间的相似性,数值越接近 1 表示翻译质量越高。

综合来说,Whisper 在处理粤语时能够更准确地识别和转录语音,并提供高质量的翻译。这使得它在实际生活中的应用中更具竞争力,例如在客户服务、多语言会议翻译等场景中,Whisper 能够帮助人们更准确地理解和交流。


关注 APPSO,学习先进工具,实践先进经验。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存